BenchEvolver: Síntesis de Tareas Frontera por Evolución de Soluciones
BenchEvolver transforma benchmarks saturados en problemas de código más difíciles, mejorando evaluación de IA con evolución centrada en soluciones.
BenchEvolver transforma benchmarks saturados en problemas de código más difíciles, mejorando evaluación de IA con evolución centrada en soluciones.
Benchmarks de VLM en percepción urbana: confiabilidad y negociación. Estudio en Montreal muestra impacto de fiabilidad humana.
Conoce CV-Arena: un benchmark abierto con 12K pares de imágenes para evaluar edición guiada por instrucciones, combinando preferencias humanas e IA.
Nuevo benchmark MCP-Persona para evaluar agentes LLM en apps personales reales como Reddit y Slack. Simulación de entornos para mejorar su rendimiento.
Un marco de red teaming multidominio revela fallos críticos en seguridad y equidad de modelos médicos de IA, ocultos por métricas promedio.
Descubre GraphARC, benchmark de razonamiento abstracto en grafos. Revelamos la brecha entre comprensión y ejecución en modelos de IA.
Estudio revela: los cuestionarios psicométricos no reflejan el comportamiento real de los LLM. La generación de probabilidades es más precisa.
Optimiza benchmarks de IA con bienestar, mejorabilidad y varianza. Nuevo marco de auditoría. ¡Descúbrelo!
Descubre FEM-Bench, el benchmark que evalúa la capacidad de los LLMs para generar código de elementos finitos. Gemini 3 Pro y GPT-5 destacan en los tests.